JSAI2026 単位超球面上の文埋め込みに基づく潜在トピックモデル
テーマ
文書を「単語の集合」ではなく「正規化された文埋め込みの集合」として扱うトピックモデル コサイン類似度で扱われる文埋め込みに、より自然に合う確率モデルを作る研究 潜在トピックモデル
話題を推定する確立生成モデル
複数のトピックの混合として生成されると仮定
有名どころ
LDA
複合トピックの混合、Bag of Words
意味的な類似性の考慮
埋め込み表現の次元削減、クラスタリング系
アイデア: 潜在トピックモデルに文埋め込みを導入
トピック割り当ての単位を、WordでなくSentenceとする
意外と、一般的な発想ではないらしいdaiiz.icon
背景課題
文埋め込みを使う既存手法はあるが、多くはユークリッド空間上のガウス分布として扱う しかし実際の埋め込み検索では、正規化ベクトルとコサイン類似度を使うことが多い
そのため、埋め込みを「方向データ」として扱う方が自然ではないか、という問題意識がある
提案
階層ベイズモデル
文ベクトルを単位長に正規化する
文ごとに潜在トピックを割り当てる
各トピックは単位超球面上の方向分布として表現する
LDAの「文書は複数トピックの混合」という解釈は維持する
Why von Mises–Fisher分布?
文埋め込みの意味は「方向」に現れる
高次元埋め込みに対して軽量に推論できる
コサイン類似度が意味的類似性を示している前提で、特定の文埋め込みモデルに依存しない
データセット
評価
分類性能(サンプル効率)
vSLDA(提案手法)
ほぼすべての条件で最高精度
→ 文埋め込みをうまく使えている
Coherence
トピック間の一貫性
vSLDAが一貫して最良
Diversity
トピック間の多様性
vSLDAが一貫して最良
苦手系な文書
稟議書など